本文旨在探讨如何合成对其进行训练的现有视频脱毛模型的近距离模糊,可以很好地推广到现实世界中的模糊视频。近年来,基于深度学习的方法已在视频Deblurring任务上取得了希望的成功。但是,对现有合成数据集培训的模型仍然遭受了与现实世界中的模糊场景的概括问题。造成故障的因素仍然未知。因此,我们重新审视经典的模糊综合管道,并找出可能的原因,包括拍摄参数,模糊形成空间和图像信号处理器〜(ISP)。为了分析这些潜在因素的效果,我们首先收集一个超高帧速率(940 fps)原始视频数据集作为数据基础,以综合各种模糊。然后,我们提出了一种新颖的现实模糊合成管道,该管道通过利用模糊形成线索称为原始爆炸。通过大量实验,我们证明了在原始空间中的合成模糊并采用与现实世界测试数据相同的ISP可以有效消除合成数据的负面影响。此外,合成的模糊视频的拍摄参数,例如,曝光时间和框架速率在改善脱毛模型的性能中起着重要作用。令人印象深刻的是,与在现有合成模糊数据集中训练的训练的模型合成的模糊数据训练的模型可以获得超过5DB PSNR的增益。我们认为,新颖的现实合成管道和相应的原始视频数据集可以帮助社区轻松构建自定义的Blur数据集,以改善现实世界的视频DeBlurring性能,而不是费力地收集真实的数据对。
translated by 谷歌翻译
在本文中,我们在混乱的环境中沿多项式轨迹引入了一个通用的连续碰撞检测(CCD)框架,包括各种静态障碍物模型。具体而言,我们发现机器人和障碍物之间的碰撞条件可以转化为一组多项式不平等,其根可以由提议的求解器有效地解决。此外,我们在广泛的CCD框架中测试具有各种运动学和动态约束的不同类型的移动机器人,并验证它允许可证明的碰撞检查并可以计算确切的影响时间。此外,我们将架构与导航系统中的路径计划器相结合。从我们的CCD方法中受益,移动机器人能够在一些具有挑战性的情况下安全地工作。
translated by 谷歌翻译
Adversarial attacks on thermal infrared imaging expose the risk of related applications. Estimating the security of these systems is essential for safely deploying them in the real world. In many cases, realizing the attacks in the physical space requires elaborate special perturbations. These solutions are often \emph{impractical} and \emph{attention-grabbing}. To address the need for a physically practical and stealthy adversarial attack, we introduce \textsc{HotCold} Block, a novel physical attack for infrared detectors that hide persons utilizing the wearable Warming Paste and Cooling Paste. By attaching these readily available temperature-controlled materials to the body, \textsc{HotCold} Block evades human eyes efficiently. Moreover, unlike existing methods that build adversarial patches with complex texture and structure features, \textsc{HotCold} Block utilizes an SSP-oriented adversarial optimization algorithm that enables attacks with pure color blocks and explores the influence of size, shape, and position on attack performance. Extensive experimental results in both digital and physical environments demonstrate the performance of our proposed \textsc{HotCold} Block. \emph{Code is available: \textcolor{magenta}{https://github.com/weihui1308/HOTCOLDBlock}}.
translated by 谷歌翻译
由于空间和时间变化的模糊,视频脱毛是一个高度不足的问题。视频脱毛的直观方法包括两个步骤:a)检测当前框架中的模糊区域; b)利用来自相邻帧中清晰区域的信息,以使当前框架脱毛。为了实现这一过程,我们的想法是检测每个帧的像素模糊级别,并将其与视频Deblurring结合使用。为此,我们提出了一个新颖的框架,该框架利用了先验运动级(MMP)作为有效的深视频脱张的指南。具体而言,由于在曝光时间内沿其轨迹的像素运动与运动模糊水平呈正相关,因此我们首先使用高频尖锐框架的光流量的平均幅度来生成合成模糊框架及其相应的像素 - 像素 - 明智的运动幅度地图。然后,我们构建一个数据集,包括模糊框架和MMP对。然后,由紧凑的CNN通过回归来学习MMP。 MMP包括空间和时间模糊级别的信息,可以将其进一步集成到视频脱毛的有效复发性神经网络(RNN)中。我们进行密集的实验,以验证公共数据集中提出的方法的有效性。
translated by 谷歌翻译
我们研究了从单个运动毛发图像中恢复详细运动的挑战性问题。该问题的现有解决方案估算一个单个图像序列,而无需考虑每个区域的运动歧义。因此,结果倾向于收敛到多模式可能性的平均值。在本文中,我们明确说明了这种运动歧义,使我们能够详细地生成多个合理的解决方案。关键思想是引入运动引导表示,这是对仅有四个离散运动方向的2D光流的紧凑量量化。在运动引导的条件下,模糊分解通过使用新型的两阶段分解网络导致了特定的,明确的解决方案。我们提出了一个模糊分解的统一框架,该框架支持各种界面来生成我们的运动指导,包括人类输入,来自相邻视频帧的运动信息以及从视频数据集中学习。关于合成数据集和现实世界数据的广泛实验表明,所提出的框架在定性和定量上优于以前的方法,并且还具有生产物理上合理和多样的解决方案的优点。代码可从https://github.com/zzh-tech/animation-from-blur获得。
translated by 谷歌翻译
偏光颜色摄影在一个快照中提供视觉纹理和对象表面信息。但是,与常规颜色成像相比,定向偏振阵列的使用会导致极低的光子计数和SNR。因此,该特征实质上导致令人不愉快的嘈杂图像并破坏极化分析性能。对于传统的图像处理管道来说,这是一个挑战,因为事实是,隐式施加在渠道中的物理约束过于复杂。为了解决这个问题,我们提出了一种基于学习的方法,以同时恢复清洁信号和精确的极化信息。捕获了配对的原始短期嘈杂和长期暴露参考图像的真实世界两极化的颜色图像数据集,以支持基于学习的管道。此外,我们采用视觉变压器的开发,并提出了一个混合变压器模型,用于偏光颜色图像denoising,即PocoFormer,以更好地恢复性能。大量的实验证明了所提出的方法的有效性和影响结果的关键因素。
translated by 谷歌翻译
大多数计算机视觉系统将无失真的图像作为输入。但是,当摄像机和对象在捕获过程中进行运动时,使用广泛使用的滚动器(RS)图像传感器会遭受几何变形。已经对纠正RS扭曲进行了广泛的研究。但是,大多数现有作品都严重依赖场景或动作的先前假设。此外,由于流动翘曲,运动估计步骤要么过于简单或计算效率低下,从而限制了它们的适用性。在本文中,我们使用全局重置功能(RSGR)使用滚动快门来恢复清洁全局快门(GS)视频。此功能使我们能够将纠正问题变成类似Deblur的问题,从而摆脱了不准确且昂贵的明确运动估计。首先,我们构建了一个捕获配对的RSGR/GS视频的光学系统。其次,我们开发了一种新型算法,该算法结合了空间和时间设计,以纠正空间变化的RSGR失真。第三,我们证明了现有的图像到图像翻译算法可以从变形的RSGR输入中恢复清洁的GS视频,但是我们的算法通过特定的设计实现了最佳性能。我们的渲染结果不仅在视觉上吸引人,而且对下游任务也有益。与最先进的RS解决方案相比,我们的RSGR解决方案在有效性和效率方面均优异。考虑到在不更改硬件的情况下很容易实现,我们相信我们的RSGR解决方案可以潜在地替代RS解决方案,以使用低噪音和低预算的无失真视频。
translated by 谷歌翻译
滚动快门(RS)失真可以解释为在RS摄像机曝光期间,随着时间的推移从瞬时全局快门(GS)框架中挑选一排像素。这意味着每个即时GS帧的信息部分,依次是嵌入到行依赖性失真中。受到这一事实的启发,我们解决了扭转这一过程的挑战性任务,即从rs失真中的图像中提取未变形的GS框架。但是,由于RS失真与其他因素相结合,例如读数设置以及场景元素与相机的相对速度,因此仅利用临时相邻图像之间的几何相关性的型号,在处理数据中,具有不同的读数设置和动态场景的数据中遭受了不良的通用性。带有相机运动和物体运动。在本文中,我们建议使用双重RS摄像机捕获的一对图像,而不是连续的框架,而RS摄像机则具有相反的RS方向,以完成这项极具挑战性的任务。基于双重反转失真的对称和互补性,我们开发了一种新型的端到端模型,即IFED,以通过卢比时间对速度场的迭代学习来生成双重光流序列。广泛的实验结果表明,IFED优于天真的级联方案,以及利用相邻RS图像的最新艺术品。最重要的是,尽管它在合成数据集上进行了训练,但显示出在从现实世界中的RS扭曲的动态场景图像中检索GS框架序列有效。代码可在https://github.com/zzh-tech/dual-versed-rs上找到。
translated by 谷歌翻译
虽然在清澈的天气下,在语义场景的理解中取得了相当大的进展,但由于不完美的观察结果引起的不确定性,在恶劣的天气条件下,仍然是一个艰难的问题。此外,收集和标记有雾图像的困难阻碍了这一领域的进展。考虑到在清晰天气下的语义场景理解中的成功,我们认为从清除图像到雾域中学习的知识是合理的。因此,问题变为弥合清晰图像和有雾图像之间的域间隙。与以往的方法不同,主要关注雾雾型磁盘差距 - 缺陷图像或雾化清晰的图像,我们建议通过同时考虑雾影响和风格变化来缓解域间隙。动机基于我们的发现,通过添加中间结构域,可以分别分别划分和关闭迷雾相关间隙。因此,我们提出了一种新的管道来累积适应风格,雾和双因素(风格和雾)。具体而言,我们设计了一个统一的框架,分别解开风格因子和雾因子,然后是不同域中图像的双因素。此外,我们合作了三种因素的解剖,具有新颖的累积损失,以彻底解解这三个因素。我们的方法在三个基准上实现了最先进的性能,并在多雨和雪景中显示了泛化能力。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译